特徵選擇決定了使用哪些特徵來做判斷。
在訓練數據集中,每個樣本的屬性可能有很多個,不同屬性的作用有大有小。因而特徵選擇的作用就是篩選出跟分類結果相關性較高的特徵,也就是分類能力較強的特徵。
在特徵選擇中通常使用的準則是:信息增益。
選擇好特徵後,就從根節點觸發,對節點計算所有特徵的信息增益,選擇信息增益最大的特徵作為節點特徵,根據該特徵的不同取值建立子節點;對每個子節點使用相同的方式生成新的子節點,直到信息增益很小或者沒有特徵可以選擇為止。
剪枝的主要目的是對抗「過擬合」,通過主動去掉部分分支來降低過擬合的風險。